Al项目

AI工具集介绍和收录了当前流行的AI研究项目和框架，紧跟最新AI领域的进展，解读AI研究论文和方法框架，帮你快速了解这些项目的工作原理。

381℃GigaWorld-1 – 极佳视界开源的具身世界模型

GigaWorld-1是什么GigaWorld-1 是极佳视界推出的具身世界模型，在 WorldArena 评测中登顶全球第一。模型采用 AC-WM（动作控制世界模型）架构，结合显式动作建模与可微分物理引擎，实现几何一致、物理准确的视频生...

2026-03-31

459℃Multi-Shot – Runway 推出的 AI 视频生成应用

Multi-Shot是什么Multi-Shot 是 Runway 推出的 AI 视频生成应用，支持实现一键成片。用户只需输入场景描述，系统自动拆解为最多5个连贯镜头，同步完成构图、运镜、对话、音效和剪辑，直接输出电影感短片。应用支持图像起...

2026-03-31

153℃Pascal Editor – 开源 3D 建筑编辑工具，在浏览器直接运行

Pascal Editor是什么Pascal Editor 是基于 Web 的开源 3D 建筑编辑器，由 Claude 辅助开发。工具无需安装，浏览器可运行，采用 WebGPU 技术实现高性能渲染。Pascal Editor 支持墙体绘制...

2026-03-31

339℃Mureka V9 – 昆仑万维推出的最新AI音乐模型

Mureka V9是什么Mureka V9 是昆仑万维推出的最新AI音乐大模型。模型在音乐旋律性、表现力、编配编曲等核心指标上全面超越Suno V5等竞品，登顶Artificial Analysis人声和乐器双榜单全球第一。Mureka ...

2026-03-31

991℃MicroCoder – 微软联合剑桥等推出的大模型训练优化框架

MicroCoder是什么MicroCoder是微软亚洲研究院联合剑桥大学、普林斯顿大学推出的代码大模型训练优化项目，针对Qwen3等新一代模型训练瓶颈，从算法、数据、评估、经验四维度全面升级。框架核心包括：MicroCoder-GRPO...

2026-03-31

463℃Qwen3.5-Omni – 阿里通义推出的全模态大模型

Qwen3.5-Omni 是什么Qwen3.5-Omni 是阿里通义实验室推出的全模态大模型，可同时理解文本、图像、音频及音视频输入。模型采用Thinker-Talker分工架构与Hybrid-MoE技术，在215项音频/音视频任务中取得...

2026-03-31

269℃PixVerse V6 – 爱诗科技推出的最新 AI 视频生成模型

PixVerse V6是什么PixVerse V6 是爱诗科技推出的最新 AI 视频生成模型。模型在镜头控制、角色表现和多镜头音视频生成方面实现突破，运镜更精准，角色情绪跨帧连贯，物理交互更真实，生成时长最长可达 15s；支持单提示词生成..

2026-03-31

778℃Pretext – 开源 AI 前端开发工具，解决中文字布局性能瓶颈

Pretext是什么Pretext 是前 React 核心成员 Cheng Lou 开源的，纯 JavaScript/TypeScript 的多行文本测量与布局库，用于纯算术方式精确测量多行文本尺寸，完全绕过 DOM 重排。Pretext...

2026-03-31

4℃Stagehand – AI网页浏览框架，提供简单和可扩展的网页自动化解决方案

Stagehand是什么Stagehand是简单和可扩展的AI网页浏览框架，是Playwright的继承者，提供act、extract和observe三个简单的API，支持自然语言驱动的网页操作。Stagehand提供一个轻量级、可配置、...

2024-11-07

3℃VideoTuna – AI视频生成应用代码库，支持多模型和全面的视频生成流程

VideoTuna是什么VideoTuna是集成多种AI视频生成模型的代码库，支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提供预训练、持续训练、后训练对齐和微调等全面视频生成流程，支持U-Net和DiT架构，并计划推出...

2024-11-07

3℃ComfyUI-MochiEdit – 开源的AI视频编辑工具，支持视频转视频和局部编辑

ComfyUI-MochiEdit是什么ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的开源视频编辑工具，基于将视频转换为噪声、重新采样实现视频编辑，支持局部编辑和视频转视频功能。用户能调整噪声校正强度、对...

2024-11-07

3℃HiCo – 360 AI研究院推出的布局可控AI绘画模型

HiCo是什么HiCo是360 AI研究院推出的基于扩散模型的层次化可控布局到图像生成模型，HiCo基于多分支结构设计，实现对对象位置和文本描述的精确控制。HiCo的关键特点在于进行空间解耦，有效地处理复杂布局，减少对象缺失和视角

2024-11-07

3℃Ferret-UI 2 – 苹果推出的跨平台UI理解多模态大语言模型

Ferret-UI 2是什么Ferret-UI 2是苹果公司推出的多模态大型语言模型，用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素，执行复杂的用户指令，实时观察用户在移动设备屏幕上的操作，随时...

2024-11-07

3℃MMBench-Video – 上海AI Lab联合多所高校推出的长视频理解基准测试

MMBench-Video是什么MMBench-Video是新颖的长视频多题问答基准测试，是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的。MMBench-Video能全面评估大型视觉语言模型（LVLMs）在视频理解方...

2024-11-07

3℃MiniMates – 轻量级AI数字人项目，支持语音和表情两种驱动模式

MiniMates是什么MiniMates是高性能的轻量级数字人驱动算法，具备语音和表情两种驱动模式，能在普通电脑上实现实时运行。基于先进的技术架构，提供极致的速度体验和个性化定制功能，支持用户根据需求定制AI伙伴。MiniMates拥

2024-11-07

3℃MotionCLR – AI动作编辑模型，根据文本提示生成相应的动作序列

MotionCLR是什么MotionCLR是基于注意力机制的人体动作生成和编辑模型，能根据文本提示生成动作，支持用户进行交互式编辑，如动作强调、减弱、替换、擦除和风格转移。MotionCLR基于自注意力和交叉注意力机制理解和编辑动作，

2024-11-07

3℃DocMind – 司马阅推出的文档智能大模型

DocMind是什么DocMind是司马阅推出的文档智能大模型，基于Transformer结构，融合深度学习、NLP和CV技术，能处理富文本文档的复杂结构和视觉信息，提高信息抽取准确性。DocMind支持精准识别文档实体、捕捉文本依赖关系...

2024-11-07

3℃DistilQwen2 – 阿里推出基于Qwen2优化的轻量级语言模型

DistilQwen2是什么DistilQwen2是基于Qwen2大模型用知识蒸馏技术优化得到的轻量级语言模型，能提高运算效率和降低部署成本。DistilQwen2基于深度剖析大模型、增强指令数据多样性和优化蒸馏算法，将复杂知识传递给小模...

2024-11-07

3℃Hunyuan3D-1.0 – 腾讯推出的3D生成模型，支持文生3D和图生3D

Hunyuan3D-1.0是什么Hunyuan3D-1.0 是腾讯推出的3D生成模型，具备文本和图像输入条件，支持高质量的3D资产生成。该模型采用两阶段方法，首先使用多视角扩散模型生成多视角RGB图像，再基于Transformer的稀疏视...

2024-11-07

3℃Hunyuan-Large – 腾讯推出的大型混合专家（MoE）模型

Hunyuan-Large是什么Hunyuan-Large是腾讯推出的大型混合专家（MoE）模型，具有3890亿总参数量和520亿激活参数量，是目前业界参数规模最大的开源MoE模型。基于Transformer架构，支持高达256K的文本序...

2024-11-07

3℃Cofounder – 全栈AI应用构建器，辅助开发者自动生成完整的应用程序

Cofounder是什么Cofounder是开源的全栈AI开发代理，能帮助开发者基于单一提示自动生成完整的应用程序，包括后端、前端、数据库和有状态的Web应用。Cofounder基于生成式AI技术，提供基于应用架构的UI、AI引导的原型设...

2024-11-07

3℃MagicTailor – 组件可控个性化图像生成新框架

MagicTailor是什么MagicTailor 是专门为组件可控个性化设计的新框架，让T2I模型在个性化过程中能精确控制。MagicTailor 基于两个关键技术动态掩码退化（DM-Deg）和双流平衡（DS-Bal），解决语义污染和语...

2024-11-07

3℃Claude Computer Use – Anthropic推出支持AI自动化操作电脑任务的功能

Claude Computer Use是什么Claude Computer Use是Anthropic公司推出的新功能，支持AI模型Claude 3.5 Sonnet 执行类似人类的电脑操作，如查看屏幕、移动光标、点击按钮和输入文本。基于...

2024-11-07

1℃Docling – IBM开源的文档解析工具

Docling是什么Docling是开源的文档解析和转换工具，能高效地将多种格式的文档（包括PDF、DOCX、PPTX、图片和HTML）解析，导出为Markdown或JSON格式。Docling支持高级PDF理解、OCR功能，能与Llam...

2024-11-07

1℃Cerebellum – 浏览器AI助手，完成网页自动化任务和行动规划

Cerebellum是什么Cerebellum是基于Claude 3.5 Sonnet和Selenium WebDriver构建的浏览器AI智能助手，能理解任务意图、执行网页自动化任务，如数据抓取和网站自动化测试。Cerebellum将网...

2024-11-07

28 1 2 下一页尾页

AI工具集导航收录了国内外数百个不同类型的AI工具，每日更新和添加最新AI工具，AI工具集还推荐了AI学习开发的常用网站、框架和模型，帮助你加入人工智能浪潮，自动化高效完成任务！ Ctrl + D 或 ⌘ + D 收藏本站到浏览器书签栏。

AI工具集导航广告投放关于我们免责声明

Copyright © 2026 AI导航网鄂ICP备15001166号-12